www.machinelearningmastery.ru

Машинное обучение, нейронные сети, искусственный интеллект
Header decor

Home
Занимательная история, выдающиеся люди, малоизвестные факты, находки, открытия, фальсификации. Присоединяйся!

Основы науки о данных (R): импорт и экспорт данных из Excel - xlsx

Дата публикации Sep 19, 2019

Наука о данных - это очень широкая тема, прежде чем войти в этот огромный лес, вы должны знать основную часть, которая заключается в правильном импорте и экспорте данных.Без данных вы не сможете выполнить все методы машинного обучения или провести глубокий анализ. Вы можете подумать, что импортировать и экспортировать очень просто, всего один простой код с именем файла внутри. Раньше у меня было такое же чувство, но позже я понял, что есть некоторые ключевые параметры, которые необходимо изменить (особенно если данные содержат текст), в противном случае вы не получите данные так, как вам нужно. Вы увидите примеры ниже.

Эта статья даст вам краткое описание использования пакета R,xlsx,Вы узнаете, как импортировать и экспортировать файлы Excel с различными функциями и каковы различия между ними.


пакет

XLSX

функциональность

Чтение, запись, форматирование файлов Excel 2007 и Excel 97/2000 / XP / 2003

Описание

Пакет xlsx дает программный контроль над файлами Excel с использованием R. Высокоуровневый API позволяет пользователючитать лист документа xlsx в data.frameи написатьdata.frame в файл, Функциональность более низкого уровня позволяет напрямую манипулировать листами, строками и ячейками. Например, пользовательимеетуправление для установки цветов, шрифтов, форматов данных, добавления границ, скрытия / отображения листов, добавления / удаления строк, добавления / удаления листов и т. д.,


демонстрация

Входные данные включают текст на английском языке, число, текст на традиционном китайском языке и текст на упрощенном китайском языке.

В конце этой демонстрации вы узнаете, какие параметры должны быть указаны для импорта и экспорта данных с различным форматом контекста в R.

Функция для тестирования (настройки по умолчанию)

read.xlsx (файл, sheetIndex, sheetName = NULL, rowIndex = NULL, startRow = NULL, endRow = NULL, colIndex = NULL, as.data.frame = TRUE, заголовок = TRUE, colClasses = NA, keepFormulas = FALSE, кодировка = ”Unknown”, пароль = NULL,…)

read.xlsx2 (файл, sheetIndex, sheetName = NULL, startRow = 1, colIndex = NULL, endRow = NULL, as.data.frame = TRUE, заголовок = TRUE, colClasses = ”символ”, пароль = NULL,…)

write.xlsx (x, file, sheetName = ”Sheet1”, col.names = TRUE, row.names = TRUE, append = FALSE, showNA = TRUE, пароль = NULL)

write.xlsx2 (x, file, sheetName = ”Sheet1”, col.names = TRUE, row.names = TRUE, append = FALSE, пароль = NULL,…)


Импортировать файл

Reference_Sample.xlsx
#############
library(xlsx)
#############
# read excel xlsx - method 1xlsx_df = read.xlsx(file="Reference_Sample.xlsx", sheetName="Sample_Sheet", header=T, stringsAsFactors=F, encoding="UTF-8")
str(xlsx_df)

header = T возвращает заголовок файла xlsx в R.

stringsAsFactors = F используется вместо T, поскольку мы не хотим, чтобы R рассматривал ввод символов как факторы.

Вы можете найти это, поскольку кодировка установлена ​​в «UTF-8», поэтому китайские символы отображаются в коде UTF. Если кодировка не установлена, отображается искаженный код.

Если вы хотите отображать китайские и специальные символы на других языках, локаль должна быть установлена ​​заранее. В этом примере должно быть указано local = «Chinese».

local = «cht» может отображать только традиционный китайский текст, тогда как local = «Chinese» может отображать как традиционные, так и упрощенные китайские слова.

Sys.setlocale(category = "LC_ALL", locale = "Chinese")
# read excel xlsx - method 1xlsx_df = read.xlsx(file="Reference_Sample.xlsx", sheetName="Sample_Sheet", header=T, stringsAsFactors=F, encoding="UTF-8")
# read excel xlsx - method 2
xlsx_df2 = read.xlsx2(file="Reference_Sample.xlsx", sheetName="Sample_Sheet", header=T, stringsAsFactors=F)

Вы можете обнаружить, что оба метода, то есть read.xlsx и read.xlsx2, показывают данные в одном и том же формате. Поскольку кодировкой по умолчанию является «UTF-8», поэтому, если языковой стандарт установлен правильно, то есть locale = «китайский», должен быть показан тот же вывод. Тем не менее, когда вы проверяете структуру xlsx_df2, вы можете найти что-то другое.

str(xlsx_df2)

Структура всех переменных становится символьной. Это может вызвать неудобства, если вы хотите сделать вычисления позже.

При использовании read.xlsx и read.xlsx2, если имена столбцов содержат пробел, все пробелы заменяются на «.»

Таким образом, когда вы делаете выборку по столбцам, используя имена столбцов, вам нужно использовать новые имена, то есть в этом случае «Traditional.Chinese» и «Simplified.Chinese».


Экспорт файла

Следующий раздел является демонстрацией для написания вывода Excel.

# write excel xlsx - method 1write.xlsx(xlsx_df, file="Output1.xlsx", sheetName="Sample_Sheet", row.names=F, showNA=F)

row.names = F указывается для удаления индекса строки, используемого в R.

showNA = F используется, поэтому пробелы остаются в виде пробелов, а не заменяются на «NA» в выходном файле.

Тем не менее, имена столбцов остаются такими же, как показано в R, если имена столбцов не были определены снова перед экспортом, поэтому вы все равно найдете эти «.» В именах столбцов.

# write excel xlsx - method 2
write.xlsx2(xlsx_df2, file="Output2.xlsx", sheetName="Sample_Sheet", row.names=F, showNA=F)

Результат использования write.xlsx2 показывает аналогичные выходные данные, но контекст всех столбцов xlsx_df2 является char, поэтому выходные данные сохранят ту же структуру, и вы можете видеть, что числа в столбце B становятся символами.


Резюме

Рекомендуется использовать read.xlsx, поскольку исходная структура данных не изменяется, но вам необходимо определить метод кодирования. (кодировка = «UTF-8» обычно используется.)

Для записи файла Excel выходные файлы write.xlsx и write.xlsx2 очень похожи, поэтому вы можете использовать любой из них.

Одним из ограничений использования xlsx является то, что он поддерживает только файл с Расширение xlsx, если вы хотите прочитать файл xls, можно использовать readxl (о чем пойдет речь в следующей статье).

Вы можете найти другие статьи импорта и экспорта данных в RВот,


Слова от редактора

Если вам интересно узнать больше трюков и навыков, вы можете просмотреть наш веб-сайт:https://cydalytics.blogspot.com/

LinkedIn:

Кэрри Ло -https://www.linkedin.com/in/carrielsc/

Енг вонг- https://www.linkedin.com/in/yeungwong/


Другие статьи

  1. Основы Data Science (R): импорт данных из Excel - readxl
  2. Основы Data Science (R): Импорт данных из текстовых файлов - textreadr & readtext
  3. Советы по визуализации данных (Power BI) - преобразование категориальных переменных в фиктивные
  4. Облако китайских слов различной формы (Python)
  5. Создание игры для детей, чтобы выучить английский язык и повеселиться с Python

Оригинальная статья

Footer decor

© www.machinelearningmastery.ru | Ссылки на оригиналы и авторов сохранены. | map